基于大数据机器学习的城市用地功能识别实践
实地调研是规划工作者完成好规划编制的前提工作,
对于规划师们而言值得付出,
但是传统城市用地功能调查方法有多苦、多累,
相信规划师们一定深有体会!
本期,百度地图资深研发工程师为您解读
基于大数据机器学习的城市用地功能识别方法。
1.基于大数据机器学习的城市用地功能识别方法
为了最大程度的解放规划师的工作强度,提高工作效率,降低误判概率,我们希望通过大数据的方法实现对城市用地功能的自动识别,真正实现上帝之眼,全国无差别覆盖,无人工干预。我们基于百度地图POI和定位数据,提出了基于区域POI热度、人口、客流和区域间联系的功能区识别方法。
1.1 数据源
▼ POI(Point of Interest),来自百度地图。
▼ POI热度,根据百度地图的检索数据计算得出。
▼ 常住地和工作地数据,包括工作和居住人口,该数据来自百度地图。
▼ 客流数据,包括节假日和工作日客流,该数据来自百度地图。
▼ 导航起终点数据,根据百度地图相关数据计算得出。
1.2 分析步骤
我们基于百度地图的上述数据源,利用道路数据将城市划分成数个区域,然后分析每个区域承载的功能,通过区域承载功能反馈用地现状;区域划分完成,我们提取每个区域的特征进行计算和归一化,然后将特征向量输入模型训练,反复调参、优化和校验得到最优结果,最后进行功能区识别和评估。
功能区挖掘的准确性主要取决于特征数据,我们依托百度地图POI、定位和道路等大数据,用静态POI、动态人口客流和区域间活动模式数据刻画区域承载的功能,数据是我们最大的优势。
1、 区域划分,基于百度地图路网数据,利用连通区域标识算法,把城市划分成数个区域。
2、 特征选择,区域承载的功能区通过三个方面刻画:区域承载POI,区域承载工作居住人口及客流,区域间的联系通过人在区域间的活动模型反映。
3、 特征计算,选取POI中能反映用地分类的POI,利用POI热度计算每个区域每类POI的TF-IDF值;计算每个区域居住人口、工作人口、工作日客流、节假日客流密度;利用上下车地点数据计算区域间的联系。
4、 模型训练,以区域为单位,将计算好的区域特征输入LDA、DMR和K-Means算法进行训练。
5、 功能区识别,模型训练中使用机器学习中无监督的算法,如何对聚类结果进行功能标注是挑战,我们参考区域的各类POI热度排名、区域代表性POI和频繁出行模型,给每个区域进行功能标注。
6、 结果评估,我们结合城市规划现状图和人为实际考察的办法进行结果评估,对宁波市进行了深入研究,具体见第五章。
2. 宁波市中心城的识别探索2.1 宁波市中心城概况
宁波中心城区范围包括鄞州区、海曙区、镇海区、北仑区以及江北区,面积2560平方公里,是全市的政治、文化中心,金融、商贸、信息、科技、教育、旅游基地。
2.2 识别探索
以传统的城市规划用地现状图作为参照,核对基于机器学习识别的宁波中心城区的功能区。
2.2.1 城市功能结构的识别情况
按照城市功能区识别的步骤对宁波中心城城市功能区进行识别。宁波中心城区共划分为2637个单元,识别具体情况见表(1),其中公司企业功能单元最多,为799个,占30.3%,土地面积占比29.6%。其次为住宅区,为510个,占19.34%,土地面积占比13.587%。比重少的为机场、交通枢纽、自然地物等特殊功能类型。
表1功能单元分类统计表
类型 | 功能单元个数 | 个数比例 | 面积 | 面积占比 |
村庄 | 228 | 8.65% | 215.04 | 29.82% |
飞机场 | 1 | 0.04% | 6.87 | 0.95% |
工厂 | 73 | 2.77% | 15.10 | 2.09% |
公司企业 | 799 | 30.30% | 213.48 | 29.60% |
公园 | 33 | 1.25% | 9.98 | 1.38% |
交通枢纽 | 12 | 0.46% | 1.54 | 0.21% |
教育培训 | 118 | 4.47% | 38.42 | 5.33% |
旅游景点 | 37 | 1.40% | 20.23 | 2.81% |
商业设施 | 497 | 18.85% | 47.42 | 6.58% |
体育场馆 | 26 | 0.99% | 6.11 | 0.85% |
文化场馆 | 15 | 0.57% | 2.96 | 0.41% |
休闲娱乐 | 48 | 1.82% | 4.34 | 0.60% |
医疗 | 52 | 1.97% | 6.71 | 0.93% |
政府机构 | 179 | 6.79% | 20.07 | 2.78% |
住宅区 | 510 | 19.34% | 97.92 | 13.58% |
自然地物 | 9 | 0.34% | 15.00 | 2.08% |
合计 | 2637 | 100.00% | 721.17 | 100.00% |
宁波中心城功能区识别图
城市功能区的空间分布情况与宁波中心城长期以来单中心发展的现实情况吻合,呈现明显的圈层结构。三江口为城市最重要的中心区,以商业、休闲娱乐以及公司企业功能占主导;向外是海曙老城区、老江东等城市生活功能区,是居住区最集中的地带,也是教育培训、医疗、公园、体育场馆、文化场馆等公共服务配套设施集中的地区。居住区外围环绕的是以公司企业、工厂以及交通枢纽等城市生产功能区,也是空间范围最广的圈层。
2.2.2 城市主要商圈的识别情况
城市商业功能区空间分布呈现大分散、中心小集聚的特征。三江口区域是商业服务业设施用地聚集的区域。一方面,目前宁波市的商业中心分布呈现以三江口商圈为核心,多个区级、副区级商业中心为辅的“单中心”格局;另一方面,商业设施局部扎堆建设现象严重,人口密集的三江片不少商业中心的辐射范围重叠,而西部、北部等近郊地区的商业中心覆盖率偏低。
城市主要商业功能区分布图
2.2.3 城市特定功能区的识别情况
在功能区识别的基础上,选取公司企业、政府机构、商业三类城市核心功能单元分析城市中心结构。在《宁波市总体规划》中提出建设以商业商务用地为核心的“两带三片双心”组团式的城市产业空间结构。根据城市功能区识别结果来看,老城区功能区块已经形成,但外地地区产业功能仍有待提升。三江口地区工作人口集聚最高,其能级以及辐射范围是名副其实的城市主中心,南部新城副中心也已经形成。规划的东部新城主中心,北仑新城、镇海新城、等片区中心的工作人口密度较低,未能达到城市中心等级,宁波中心城的中心体系仍处于起步阶段。姚江新城、高桥、集士港等区域受土地资源约束,商业商务等用地大规模建设难度较大,有待新一轮城市总体规划与土地利用总体规划明确建设规模。
宁波市总体规划中心结构图
2.2.4 偏差规律及偏差原因分析
以居住用地为例,将机器学习识别的主要功能与传统城市规划的现状用地性质进行叠加校验,发现现阶段机器学习的结果与传统调研方式存在一定偏差。经过区块实地建设情况的踏勘与分析后得出几点造成偏差的规律及其原因:
1、 机器识别功能区与现状用地认定的标准不同所造成的偏差。比如,在城市规划的认知上,在建的居住用地从行政审批上已完成对于用地性质的确认,现状将认定为居住用地;而目前采用的数据源在这种情况下,机器识别更容易将当下现状功能作为本单元的主导功能。
2、 机器识别功能区与现状用地分类依据不同所造成的偏差。城市规划对于用地性质的分类按土地主要的使用性质进行划分,而机器识别的功能区主要依据实际这个单元在人的使用中更为主要的功能来确定此单元的主要功能。从居住用地的验证结果看,在居住用地存在有底商的形式且商业设施较为丰富时,机器更容易识别为商业设施,而城市规划现状认定为居住用地,这种情况在老城区比较明显。
3、 功能区划分与用地划分的尺度不同所造成的偏差。从规划上,地块的划分主要依据土地权属界线及规划审批所划定的边界为单元,而目前功能区识别的边界主要以现状道路为依据,这样导致两个偏差:一、道路围合的区域内现状是两块不同用地性质的功能,但对于机器识别来说将会把更为主要的功能作为该单元的主要功能。二、城郊等城市建设相对边缘的区域就会因为单元划定尺度较大,某类用地所占面积比重很低,导致该用地功能从整个单元上就被其他功能所覆盖。
居住用地所占比重示意图 主导功能示意图
2.3 结论
根据识别的结果和偏移分析的结果,从整个城市的尺度上看,对于城市总体的功能结构识别较为准确,从一定程度能反映城市现状发展的情况;在中心城区建设较为成熟完善的区域识别的首要功能较为准确,偏移的现象也较小。
3.1 方法创新点
通过百度地图大数据平台对城市用地功能识别主要有以下突破性创新。首先,本研究方法通过机器学习的方法对城市建设用地功能自动化识别实现聚类分析,避免了人工干预,能够相对客观的反映城市建设用地实际功能使用情况;其次,在建设用地功能识别过程中,对土地使用功能从多维度进行分析,将单一地块中各类型功能占比进行测算,更加精准的反映了土地功能复合情况;最后,依托百度地图大数据平台,城市用地功能识别可以实现全国土范围内覆盖,数据更新周期可以实现15天一次更新,数据历史数据可以回溯3年以上时间,可以实现不同城市,不同时间维度的横向、纵向对比研究。目前我们百度已完成北上广深和宁波的城市用地功能识别将国内一线城市的用地功能数据进行了梳理,未来可以为同类城市提供全国用地功能评估服务。我们认为在规划行业能辅助开展以下研究:1)用地现状分析。基于主导属性的用地现状功能生成,在此基础上可以开展城市用地复合属性评价。2)规划实施评估。对单一用地的使用强度、人口聚集程度进行比较。3)城市开发边界的划定。识别城市建设用地边界,为有效控制城市建设用地规模提供依据。4)城市群职能结构对比分析。宏观尺度对城市群的功能特征进行横向对比,了解区域城市协作与职能分工。
传统规划调研方法在行业中的作用无法替代,好的规划师肯定不能坐在办公室就可以直接体会城市的兴衰与市民的喜怒哀乐。基于大数据的城市功能区识别目的还是给规划师一个更高效、客观认知城市的工具,减少规划师的工作强度提高工作效率,让规划师能够将有限的时间更多的投入到体会城市、与百姓的沟通中去。
3.2 后续完善方向
在看到成绩及应用前景的同时,在用地边界识别上需要做以下完善。例如需要完善对城市河流水系的边界识别,更加精准的切分城市地块;基于用地识别中间数据,如POI业态分布、居住工作人口密度、区域间的OD数据,深入分析用地开发强度、混合用地、区域间的交通情况等。
👇看完这篇,你一定想知道:
百度慧眼宁波规划创新实验室是百度慧眼与宁波市规划局共同创立的大数据规划应用实验室。双方本着利用各自优势、共同促进规划行业大数据应用的目的而成立该实验室。本实验室重点关注的是大数据在规划设计中实际应用的方法而非理论研究,因此所有文章的发布也主要是探讨大数据应用方法。希望能够起到抛砖引玉的效果来推动跨行业融合及规划行业的技术进步。
实验室在确定功能区识别这一功能作为研发识别之初,主要是希望通过大数据的方法为传统规划工作者提供一种高效、便捷、客观的了解城市土地使用实际情况的一种新方法。同时该方法在研发完成后可以快速的在全国范围进行推广,最终实现国土范围内全覆盖及横向对比。
百度地图慧眼将会利用自身大数据能力,结合规划行业的行业背景,不断创新研究。近期实验室会对城市交通出行模式、城市建成区边界等内容进行研发,用技术来推动行业的发展。
如有疑问,敬请联系百度地图资深研发工程师:
阚长城 huiyan@baidu.com